Telegram Group & Telegram Channel
📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных

Дата-сайентисты, делитесь: чем копаете свои миллионы строк?

🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.

Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
IndexError: too many indices — старая знакомая.

📊 pandas — король табличек
df.head() — и ты уже видишь суть.
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.

Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.

🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.

Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.

А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tg-me.com/sg/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6244

Библиотека дата-сайентиста #междусобойчик



tg-me.com/dsproglib/6430
Create:
Last Update:

📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных

Дата-сайентисты, делитесь: чем копаете свои миллионы строк?

🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.

Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
IndexError: too many indices — старая знакомая.

📊 pandas — король табличек
df.head() — и ты уже видишь суть.
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.

Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.

🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.

Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.

А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://www.tg-me.com/sg/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6244

Библиотека дата-сайентиста #междусобойчик

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6430

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from sg


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA